生成式AI重塑正在计算行业,未来绝不只是硬件之争,而是从应用到基础设施,整个技术栈都将被重构。就在上周,在2024年Computex上,英伟达CEO黄仁勋在主题演讲除了发布了未来两年GPU芯片的路线路之外,还正式发布了一款重要的软件产品NIM——NVIDIA inference microservices(英伟达推理微服务)。
2023年大模型如雨后春笋般的涌现,从OpenAI, Meta、Mistral、Stability到国内的百模大战,人们逐渐体验到大模型LLM带来的便捷和智能化的体验。而进入2024年,许多组织已经将重点转移到全面的生产部署上。每个企业都想在其运营中添加生成式 AI,但并不是每个企业都有专门的 AI 研究团队。
这涉及到将 AI 模型连接到现有的企业基础设施,优化系统延迟和吞吐量、日志记录、监控和安全等一系列问题。这条通往生产的道路复杂且耗时——它需要专门的技能、平台和流程,尤其是在大规模部署的时候。
NIM正是为了应对这一挑战而生的。它是一套易于使用的预构建容器微服务,目的是帮助企业加速生成式 AI 的部署。它支持各种AI 模型,可确保利用行业标准 API 在本地或云端进行无缝、可扩展的 AI 推理。
NIM为开发AI驱动的企业应用程序和在生产环境中部署AI模型提供了一条简化的路径。它通过提供一种简单、标准化的方式,将生成式AI集成到应用中,大幅提升了开发者的生产力。NIM还可以帮助企业最大化其基础设施投资,例如,在NIM上运行Meta Llama3-8B,相比不使用NIM,可以在加速基础设施上多产生高达三倍的token,极大提高了企业的效率。NIM是专门为优化推理而生的,目的在弥合 AI 开发的复杂世界与企业环境的运营需求之间的差距,帮助企业的开发者能够在自己的环境中快速的将AI转化成生产力。
NIM是一个容器化的推理微服务,包括行业标准api、特定领域代码、优化的推理引擎和企业运行环境。它提供给开发者一套业界通用的工具,用来打造聪明的Copliot、聊天机器人和个人 AI 助手。而且,IT 和运维团队也可以轻松地在自己的系统上运行 AI 模型。NIM 的强大来自于它背后的技术基础,包括CUDA, NVIDIA Triton推理服务器、TensorRT™、TensorRT-LLM等先进的推理引擎,这些技术让 NIM 能够高效地处理大规模的 AI 推理任务。随处部署:NIM 为可移植性和可控性而构建,支持从本地工作站到云端到本地数据中心的各种基础设施上部署模型。预构建的容器和与优化模型打包的Helm图表,在不同的NVIDIA硬件平台、云服务提供商和Kubernetes发行版上都经过了严格的验证和基准测试。这使得在所有由NVIDIA驱动的环境中都能得到支持,并确保组织可以在任何地方部署他们的生成性AI应用,同时完全控制他们的应用程序及其处理的数据。使用行业标准 API 开发 :开发者可以通过遵守每个领域行业标准的 API 访问 AI 模型,简化 AI 应用程序的开发。这些 API 与生态系统内的标准部署流程兼容,使开发者能够快速更新他们的 AI 应用程序——通常只需三行代码。这种无缝集成和易用性促进了企业环境中 AI 解决方案的快速部署和扩展。运行在优化的推理引擎上:NIM通过为每个模型和硬件配置定制优化的推理引擎,确保了在NVIDIA加速基础设施上实现最低延迟和最高数据吞吐量。这意味着,当你的应用需要处理大量数据时,NIM能够以更低的成本提供更快的响应速度,从而让用户享受到更流畅的体验。而且,NIM不只是支持那些社区里已经优化好的模型。开发者还可以根据自己的特定需求,使用自己的数据对模型进行进一步的调整和优化,以实现更高的精确度和性能。最棒的是,这些定制化的工作完全可以在他们自己的数据中心内完成,无需将数据发送到外部环境。这样既保护了数据的安全性,又提升了应用的效率。支持企业级 AI :NIM是NVIDIA AI Enterprise的一部分,它不仅仅是一个软件工具,更是企业级AI应用的得力助手。它基于一个强大的企业级容器,这意味着它从设计之初就考虑到了企业的需求,包括稳定性、安全性和可维护性。优化了特定领域的模型:NIM 还通过几个关键特性解决了特定领域解决方案和优化性能的需求。它打包了特定领域的 NVIDIA CUDA 库和针对语言、语音、视频处理、医疗等领域量身定制的专业化代码。优化总拥有成本(TCO): 开发者可以使用 NVIDIA 管理的云 API ai.nvidia.com测试最新的生成性 AI 模型,也可以通过下载 NIM 自托管模型,并在主要的云提供商或本地的 Kubernetes 上快速部署生产,这样可以大大削减开发时间、复杂性和成本。生态合作:NVIDIA一向注重生态的建设,他们不但瞄准了开发者群体,更是火速将NIM嵌入上百家合作伙伴的平台或者产品,利用其巨大的用户群优势迅速占领市场。我们正在迎来一场新的工业革命,IT行业未来将会变成制造业,生产的是Token,是智能,不管NIM是不是最优解,如何优化 AI 基础设施以实现最大效率和成本效益,将会是越来越重要的话题。参考资料:NVIDIA NIM Offers Optimized Inference Microservices for Deploying AI Models at Scale | NVIDIA Technical BlogNIM for Developers | NVIDIA Developer小伙伴们关注起来谨防走丢: